Training effective embodied AI agents often involves manual reward engineering, expert imitation, specialized components such as maps, or leveraging additional sensors for depth and localization. Another approach is to use neural architectures alongside self-supervised objectives which encourage better representation learning. In practice, there are few guarantees that these self-supervised objectives encode task-relevant information. We propose the Scene Graph Contrastive (SGC) loss, which uses scene graphs as general-purpose, training-only, supervisory signals. The SGC loss does away with explicit graph decoding and instead uses contrastive learning to align an agent's representation with a rich graphical encoding of its environment. The SGC loss is generally applicable, simple to implement, and encourages representations that encode objects' semantics, relationships, and history. Using the SGC loss, we attain significant gains on three embodied tasks: Object Navigation, Multi-Object Navigation, and Arm Point Navigation. Finally, we present studies and analyses which demonstrate the ability of our trained representation to encode semantic cues about the environment.
translated by 谷歌翻译
在许多机器人应用中,要执行已知,刚体对象及其随后的抓握的6多-DOF姿势估计的环境设置几乎保持不变,甚至可能是机器人事先知道的。在本文中,我们将此问题称为特定实例的姿势估计:只有在有限的一组熟悉的情况下,该机器人将以高度准确性估算姿势。场景中的微小变化,包括照明条件和背景外观的变化,是可以接受的,但没有预期的改变。为此,我们提出了一种方法,可以快速训练和部署管道,以估算单个RGB图像的对象的连续6-DOF姿势。关键的想法是利用已知的相机姿势和刚性的身体几何形状部分自动化大型标记数据集的生成。然后,数据集以及足够的域随机化来监督深度神经网络的培训,以预测语义关键。在实验上,我们证明了我们提出的方法的便利性和有效性,以准确估计物体姿势,仅需要少量的手动注释才能进行训练。
translated by 谷歌翻译
基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译
本文提出了基于联邦学习(FL)的SMAR T医疗保健系统,其中医疗中心(MCS)使用患者收集的数据训练本地模型,并将模型权重以基于区块链的强大框架将原始数据发送给矿工,而无需共享原始数据隐私保护进行审议。我们通过最大化效用并最大程度地降低了MCS在基于区块链的框架为基础的分布式医疗保健数据上学习有效模型的损失功能来提出优化问题。我们在两个阶段提出了一个解决方案:首先,提供一种稳定的基于匹配的关联算法,以最大程度地提高矿工和MC的实用性,然后使用随机梯度下降(SGD)算法解决损失最小化,该算法在差异隐私(DP)和区块链下使用FL技术。此外,我们合并了区块链技术,以在拟议的基于FL的框架中提供抗性和分散的模型重量共享。通过模拟现实世界中的医疗保健数据比较其他最先进的技术,该模型的有效性显示了。
translated by 谷歌翻译
极端分类(XC)试图用最大的标签集中标记标签的子集标记数据点。通过使用稀疏,手工制作的功能的XC方法优越,用密集,学习的数据来进行深度XC,以数据点和标签的形式吸引了很多关注。负挖掘技术已成为所有深XC方法的关键组成部分,使它们可以扩展到数百万个标签。然而,尽管最近进步,但培训具有大型编码器体系结构(例如变形金刚)的深入XC模型仍然具有挑战性。本文确定,流行负面挖掘技术的内存通常迫使小型批量尺寸保持小且缓慢的训练。作为回应,本文介绍了Ngame,这是一种轻巧的迷你批次创建技术,可证明可证明准确的内部负面样品。这使得与现有负面采样技术相比,具有更大的迷你批次培训,提供更快的收敛性和更高的精度。发现Ngame的准确性比各种基准数据集的最先进方法要高16%,以进行极端分类,并且在回答搜索引擎查询以响应用户网页时检索搜索引擎查询更准确3%显示个性化广告。在流行搜索引擎的实时A/B测试中,Ngame在点击率率中的收益最高可达23%。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的重尾随机策略梯度(HT-PSG)算法,以应对连续控制问题中稀疏奖励的挑战。稀疏的奖励在连续控制机器人技术任务(例如操纵和导航)中很常见,并且由于对状态空间的价值功能的非平凡估计而使学习问题变得困难。这需要奖励成型或针对稀疏奖励环境的专家演示。但是,获得高质量的演示非常昂贵,有时甚至是不可能的。我们提出了一个重型策略参数化,以及基于动量的策略梯度跟踪方案(HT-SPG),以引起对算法的稳定探索行为。提出的算法不需要访问专家演示。我们测试了HT-SPG在连续控制的各种基准测试任务上的性能,并具有稀疏的奖励,例如1d Mario,病理山车,Openai体育馆的稀疏摆和稀疏的Mujoco环境(Hopper-V2)。就高平均累积奖励而言,我们在所有任务中表现出一致的性能提高。 HT-SPG还证明了最低样品的收敛速度提高,从而强调了我们提出的算法的样品效率。
translated by 谷歌翻译
监测草原的健康和活力对于告知管理决策至关优化农业应用中的旋转放牧的态度至关重要。为了利用饲料资源,提高土地生产力,我们需要了解牧场的增长模式,这在最先进的状态下即可。在本文中,我们建议部署一个机器人团队来监测一个未知的牧场环境的演变,以实现上述目标。为了监测这种环境,通常会缓慢发展,我们需要设计一种以低成本在大面积上快速评估环境的策略。因此,我们提出了一种集成管道,包括数据综合,深度神经网络训练和预测以及一个间歇地监测牧场的多机器人部署算法。具体而言,使用与ROS Gazebo的新型数据综合耦合的专家知识的农业数据,我们首先提出了一种新的神经网络架构来学习环境的时空动态。这种预测有助于我们了解大规模上的牧场增长模式,并为未来做出适当的监测决策。基于我们的预测,我们设计了一个用于低成本监控的间歇多机器人部署策略。最后,我们将提议的管道与其他方法进行比较,从数据综合到预测和规划,以证实我们的管道的性能。
translated by 谷歌翻译
图像到图像转换是最近使用生成对冲网络(GaN)将图像从一个域转换为另一个域的趋势。现有的GaN模型仅利用转换的输入和输出方式执行培训。在本文中,我们执行GaN模型的语义注射训练。具体而言,我们用原始输入和输出方式训练,并注入几个时代,用于从输入到语义地图的翻译。让我们将原始培训称为输入图像转换为目标域的培训。原始训练中的语义训练注射改善了训练的GaN模型的泛化能力。此外,它还以更好的方式在生成的图像中以更好的方式保留分类信息。语义地图仅在训练时间使用,并且在测试时间不需要。通过在城市景观和RGB-NIR立体数据集上使用最先进的GaN模型进行实验。与原始训练相比,在注入语义训练后,我们遵守SSIM,FID和KID等方面的提高性能。
translated by 谷歌翻译
本文介绍了在自动语音识别(ASR)的语境中的声学模型的新型深度学习架构,称为MixNet。除了在LSTM-HMM中的DNN-HMM和存储器单元中的完全连接层之外,该模型使用基于专家(MOE)的混合的两个附加层。在输入时操作的第一个Moe层基于预定义的广义语音类,并且在倒数第二层操作的第二层基于自动学习的声学类。在自然语音中,不同声学类的分布在分布中是不可避免的,这导致帧间错误分类。如果经过修改的传统架构,则预期ASR精度将改进,以使其更适合于占这种重叠。 MixNet正在开发牢记这一点。通过散点图进行的分析验证了MOE确实改善了转化为更好ASR精度的类之间的分离。实验在大型词汇ASR任务上进行,表明,与传统模型,即DNN和LSTM分别提供了13.6%和10.0%的单词误差速率,即使用SMBR标准训练。与用于电话分类的现有方法相比(由EIGEN等人),我们所提出的方法产生了显着的改善。
translated by 谷歌翻译
We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译